Random forest

2025924

10:58

树模型很容易过拟合,具有高方差的特点,那么我通过bootstrap自助采样得到多个子数据集,用多个子数据集分别训练树模型,然后进行平均或投票,就可以降低整个模型的方差了,这就是随机森林的思想。

除了对行采样,为了保证每棵树和其他树的区别性,还对特征列进行采样,使得每棵树更加的unique

所以,理论上,RF中每棵树需要是学习能力强一点的树,因为RF中的集成是降低模型的方差,无法影响模型的偏差,那么要想减少偏差,就得让每棵树的拟合能力强一些(比如深度大一些)。

GBDT中每棵树需要是弱学习器 ,因为如果是强学习器,那么每次沿梯度方向更新的步子就迈得大,即使学习率设置地比较小。

 

已使用 OneNote 创建。